Lista de Produtos de IA

Lista de Produtos de IA

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

Tipo :

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

2025-01-16 15:46:26.AIbase

Alibaba Cloud lança novo modelo de raciocínio matemático Qwen2.5-Math-PRM; versão de 7B supera o GPT-4o

Hoje, a equipe Tongyi da Alibaba Cloud lançou oficialmente o novo modelo de recompensa de processo de raciocínio matemático Qwen2.5-Math-PRM. O modelo está disponível em dois tamanhos, 72B e 7B, apresentando desempenho significativamente superior a modelos de recompensa de processo de código aberto semelhantes, especialmente na identificação de erros de raciocínio. A versão de 7B do Qwen2.5-Math-PRM surpreendentemente superou o popular GPT-4o, um feito que marca um passo importante para a Alibaba Cloud no desenvolvimento de modelos de raciocínio. Para completar...

Alibaba Cloud lança novo modelo de raciocínio matemático Qwen2.5-Math-PRM; versão de 7B supera o GPT-4o

2025-01-16 10:42:26.AIbase

Equipe Qwen da Alibaba lança novo modelo de recompensa de processo, evoluindo o raciocínio matemático

A equipe Qwen da Alibaba publicou recentemente um artigo intitulado "Lições aprendidas no desenvolvimento de modelos de recompensa de processo em raciocínio matemático" e lançou dois novos modelos na série Qwen2.5-Math-PRM, com 7B e 72B de parâmetros, respectivamente. Esses modelos superaram as limitações das estruturas PRM existentes em raciocínio matemático, utilizando técnicas inovadoras para melhorar significativamente a precisão e a capacidade de generalização dos modelos de raciocínio. O raciocínio matemático tem sido um grande desafio para os grandes modelos de linguagem (LLM), especialmente em passos de raciocínio intermediários, onde erros...

Equipe Qwen da Alibaba lança novo modelo de recompensa de processo, evoluindo o raciocínio matemático

2024-12-15 10:23:35.AIbase

Alibaba lança novo benchmark de IA, "PROCESSBENCH", para avaliar a capacidade de identificar erros em raciocínio matemático

Recentemente, pesquisadores da equipe Qwen da Alibaba lançaram um novo benchmark chamado "PROCESSBENCH", projetado para medir a capacidade dos modelos de linguagem em identificar erros de processo em raciocínio matemático. Com o progresso significativo dos modelos de linguagem em tarefas de raciocínio complexo, pesquisadores nessa área descobriram que, apesar do excelente desempenho dos modelos, eles ainda enfrentam desafios ao lidar com alguns problemas difíceis. Portanto, o desenvolvimento de um método de supervisão eficaz é crucial. Atualmente, os benchmarks de avaliação para modelos de linguagem apresentam algumas deficiências. Por um lado,

Alibaba lança novo benchmark de IA, "PROCESSBENCH", para avaliar a capacidade de identificar erros em raciocínio matemático

2024-11-18 07:58:19.AIbase

Kimi lança modelo de raciocínio matemático k0-math: habilidades matemáticas comparáveis à série OpenAI o1

A Kimi, o Assistente Inteligente da Lua Escura, anunciou o lançamento de seu novo modelo de raciocínio matemático, o k0-math. O modelo k0-math demonstrou desempenho excepcional em diversos testes de referência de habilidades matemáticas, superando os modelos o1-mini e o1-preview da série OpenAI o1 em quatro testes de referência: exames de nível médio, exames de nível superior, exames de pós-graduação e o MATH, que inclui problemas de competições introdutórias.

Kimi lança modelo de raciocínio matemático k0-math: habilidades matemáticas comparáveis à série OpenAI o1

2024-10-14 14:51:30.AIbase

Equipe de pesquisa da Apple lança novo benchmark GSM-Symbolic: revelando as deficiências no raciocínio matemático de grandes modelos de linguagem!

Recentemente, pesquisadores da Apple conduziram um estudo aprofundado sobre a capacidade de raciocínio matemático de grandes modelos de linguagem (LLMs), lançando um novo benchmark chamado GSM-Symbolic. Este novo benchmark foi desenvolvido com base no GSM8K, que é usado principalmente para avaliar habilidades matemáticas básicas. Embora muitos LLMs tenham mostrado melhorias no GSM8K, a comunidade científica ainda tem dúvidas sobre a capacidade de raciocínio desses modelos, acreditando que os indicadores de avaliação existentes podem não refletir totalmente suas capacidades reais. A pesquisa revela...

Equipe de pesquisa da Apple lança novo benchmark GSM-Symbolic: revelando as deficiências no raciocínio matemático de grandes modelos de linguagem!

2024-07-19 16:36:43.AIbase

DeepSeek lança modelo DeepSeek-V2-Chat-0628 de código aberto: aprimoramento na capacidade de raciocínio matemático

O ranking mais recente do LMSYS Chatbot Arena, uma arena de competição de modelos de linguagem grandes organizada pela LMSYS, mostra que o DeepSeek-V2-0628, ultrapassando vários modelos de código aberto como Llama3-70B, Qwen2-72B, Nemotron-4-340B e Gemma2-27B, ocupa o primeiro lugar no ranking global de modelos de código aberto. Em comparação com a versão 0507, o DeepSeek-V2-0628 apresenta melhorias significativas em raciocínio matemático e de código, seguimento de instruções, interpretação de papéis e JS.

DeepSeek lança modelo DeepSeek-V2-Chat-0628 de código aberto: aprimoramento na capacidade de raciocínio matemático